Uso básico da linguagem
Atrubuição de variáveis
n <- ((5 + 5) * 4) / 2
n
[1] 20
sqrt(n + 5) -> sq
sq
[1] 5
sq ^ 3
[1] 125
Vetores
v <- c(1,2,3,4,5)
v
[1] 1 2 3 4 5
v <- 1:5
v
[1] 1 2 3 4 5
seq(5) -> v
v
[1] 1 2 3 4 5
v <- seq.int(from = 1, to = 5, by = 1)
v
[1] 1 2 3 4 5
Vetores podem ter seus índices nomeados:
v_names <- c("um", "dois", "três", "quatro", "cinco")
names(v) <- v_names
v
um dois três quatro cinco
1 2 3 4 5
Filtragem
Vetores podem ser filtrados por range
v[1:3]
um dois três
1 2 3
Também podem ser filtrados através de condicionais. O caso abaixo retorna um vetor de boleanos que satisfaça a condição:
v > 3
um dois três quatro cinco
FALSE FALSE FALSE TRUE TRUE
Para retornar os valores este vetor de boleanos deve ir dentro da indexação:
v[v>3]
quatro cinco
4 5
Matrizes
Matrizes só podem ter um tipo de valor. Inicialização:
m1 <- matrix(1:20, nrow = 4, ncol = 5)
m1
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 13 17
[2,] 2 6 10 14 18
[3,] 3 7 11 15 19
[4,] 4 8 12 16 20
Operações com matrizes
A lógica para operações com escalares é a mesma para vetores:
m1 * 5
[,1] [,2] [,3] [,4] [,5]
[1,] 5 25 45 65 85
[2,] 10 30 50 70 90
[3,] 15 35 55 75 95
[4,] 20 40 60 80 100
Em operações com vetores e matrizes cada coluna da matriz é percorrida pelo vetor em ordem e depois se repete:
m1 * v
[,1] [,2] [,3] [,4] [,5]
[1,] 1 25 36 39 34
[2,] 4 6 50 56 54
[3,] 9 14 11 75 76
[4,] 16 24 24 16 100
Os valores de duas matrize podem ser operados se elas possuirem a mesma quantidade de linhas e colunas:
m2 <- matrix(20:39, nrow = 4, ncol = 5)
m1 * m2
[,1] [,2] [,3] [,4] [,5]
[1,] 20 120 252 416 612
[2,] 42 150 290 462 666
[3,] 66 182 330 510 722
[4,] 92 216 372 560 780
m1 + m2
[,1] [,2] [,3] [,4] [,5]
[1,] 21 29 37 45 53
[2,] 23 31 39 47 55
[3,] 25 33 41 49 57
[4,] 27 35 43 51 59
Para de fato multiplcar duas matrizes a regra matemática precisa se respeitada (l1 = c2). O operador correto é %*%
m3 <- matrix(1:20, nrow = 5, ncol = 4)
m1 %*% m3
[,1] [,2] [,3] [,4]
[1,] 175 400 625 850
[2,] 190 440 690 940
[3,] 205 480 755 1030
[4,] 220 520 820 1120
Funções Internas
Funções para aritimética em geral
Soma (sum).
Soma todos os valores de um vetor
random_vec <- sample(30)
random_vec
[1] 2 26 29 18 22 3 1 25 10 28 30 19 13 17 20 4 15 9 21 23 16 7 14 8 6 12 5 27 24 11
sum(random_vec)
[1] 465
Também pode ser utilizado junto com filtragem, para contar a quantidade de ocorrencias dada uma determinada condição:
sum(mtcars$gear == 4)
[1] 12
Neste caso o resultado indicad que a tabela “mtcars” possui 12 ocorrencias cuja coluna gear é igaual a 4, ou seja, 12 carros de 4 marchas
Média Aritimética símples
\(\bar{x} = \frac{\sum_{i=1}^n x_{i}}{n}\)
vec_m <- c(1,2,3,4,5,6,7,8,9,10,30)
mean(vec_m)
[1] 7.727273
\(\sigma = \sqrt{\frac{\sum_{i=1(xi_{i} - \bar{x})^2}^{n}}{n}}\)
vec_var <- sample(20)
vec_var
[1] 6 1 11 16 3 5 7 8 17 10 2 14 19 15 4 20 12 18 9 13
sd(vec_var)
[1] 5.91608
\(Y_{i} = \beta_{0}+\beta_{1}X_{i}+\xi\)
Exemplo: Relação entre peso e altura em mulheres:
women
regWomen <- lm(women$height ~ women$weight)
summary(regWomen)
Call:
lm(formula = women$height ~ women$weight)
Residuals:
Min 1Q Median 3Q Max
-0.83233 -0.26249 0.08314 0.34353 0.49790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.723456 1.043746 24.64 2.68e-12 ***
women$weight 0.287249 0.007588 37.85 1.09e-14 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.44 on 13 degrees of freedom
Multiple R-squared: 0.991, Adjusted R-squared: 0.9903
F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14
PONTOS IMPORTANTES:
o p-value o nível de coorrelação entre as variáveis. Abaixo de 0.05 está dentro do intervalo de confiança de 95%
O R ajustado indica a capacidade de explicação das variáveis no modelo.
O resultado possui um p-value extremamente baixo: \(1.91^{-14}\), ou seja, alta coorrelação entre as variáveis.
O R ajustado de 0.9903 indica que este modelo tem capacida de explicação em 99.03%.
Gráficos
Plot
Plota de acordo com a serie de dados. No exemplo abaixo cada valor é representado por um ponto no eixo cartesiano:
plot(x = cars$speed, y = cars$dist, main = "Distâncias de parada", xlab = "Velocidade", ylab = "Distância")
#Também é possível interferir no gráfico que foi plotado. Os dois comandos devem ser executados juntos.
lines (c(5,25),c(5,80), col='red')

Outros tipos de séries exibirão outros visuais:
plot(UKDriverDeaths)

Ao plotar o resultado de uma regressão linear vários tipos de gráficos serão exibidos:
plot(regWomen)




Boxplot
Representa graficamente os valores do mínimo, 1,2 e 3 quartil, mediana e máximo.
boxplot(airquality)

Histograma
Histograma das frequencias de um dataset
hist(mtcars$mpg)

Dplyr
Select
Retorna um subset com a sleção de colunas filtradas
select(mtcars, mpg,hp,qsec,gear)
Também pode ser usado com ranges:
select(mtcars, hp:gear)
Filter
Filtra linhas de acordo com condições. Operadores binários podem ser utilizados
filter(mtcars, hp > 100, wt < 3.000 | qsec > 20.1)
Arrange
Ordena a tabela de acordo com as variáveis fornecidas. No caso abaixo o primeiro critério de ordenação é a quantidade de cilindros crescente e o segundo é a quantidade de marchas decrescente.
arrange(mtcars, cyl, desc(gear))
Mutate
Insere novas variáveis na tabela. É possível utilizar outras variáveis como base para os valores
mutate(USArrests, murder_prop = Murder / (Assault + Rape))
Pipes
É possível encadear todas estas funções com um pipe ( %>% ):
airquality %>% filter(Month == 8) %>% select(Ozone,Temp,Wind) %>% mutate(vento_ao_quadrado = Wind ** 2)
### Pacotes para gráficos #### Ggplot2 Cria gráficos visualmente agradáveis com bastante controle. funciona com a seguinte sintaxe:
ggplot2(dataset, aes(vaX,varY,…)) + função_de_plotagem() + função_de_plotagem() + …
primeiro é criada a area de plotagem com os parâmetros básicos. Em seguida cada função somada é adcionada ao plot.
ggplot(women, aes(women$height,women$weight)) + geom_point(col='red') + geom_path(col='#333333')

ggplot(cars, aes(cars$speed,cars$dist)) + geom_count()

Plotly
Cria gráficos interativos com excelentes recursos, mas funciona com sistema de visualizador. Se o tipo de gráfico não for fornecido ele tentará deduzir
obs: neste pacote caractere ‘~’ não significa em função de.
plot_ly(economics, x = ~date, y = ~pop)
No trace type specified:
Based on info supplied, a 'scatter' trace seems appropriate.
Read more about this trace type -> https://plot.ly/r/reference/#scatter
No scatter mode specifed:
Setting the mode to markers
Read more about this attribute -> https://plot.ly/r/reference/#scatter-mode
No trace type specified:
Based on info supplied, a 'scatter' trace seems appropriate.
Read more about this trace type -> https://plot.ly/r/reference/#scatter
No scatter mode specifed:
Setting the mode to markers
Read more about this attribute -> https://plot.ly/r/reference/#scatter-mode
#se apenas um eixo for fornecido criará um histograma
plot_ly(mtcars, y = mtcars$wt, type = "histogram")
O eixo Z pode ser usado para gráficos 3d ou heatmaps
plot_ly(z = ~volcano, type = "heatmap")
plot_ly(z = ~volcano, type = "surface")
Este pacote suporta encadeamento de funções com pipe:
plot_ly(economics, x = ~date, color = I("black")) %>%
add_lines(y = ~uempmed) %>%
add_lines(y = ~psavert, color = I("red"))
---
title: "R <-"
output: html_notebook
---
<style>
h3{
border-bottom:dashed 1px #999999;
padding-bottom:10px;
}
h4{
color:#444444;
}
</style>

<br />

<hr />

####Índice
<ul>
  <li>[Uso básico da linguagem](#basico)</li>
  <ul>
  <li>[Variáveis](#variaveis)</li>
  <li>[Vetores](#vetores)</li>
  <li>[Operaçẽos com vetores](#vec_ops)</li>
  <li>[Matrizes](#matrizes)</li>
  <li>[Operações com matrizes](#matrix_ops)</li>
  </ul>
  
  <li>[Funções internas](#int_func)</li>
  <ul>
  <li>[Funções internas para aritmética em geral](#int_func_geral)</li>
  </ul>
  
  <li>[Aplicação em estatística](#aplic_estat)</li>
  <ul>
  <li>[Desvio Padrão](#desvio_padrao)</li>
  <li>[Regressão Linear](#regressao_linear)</li>
  </ul>
  
  <li>[Graficos](#graficos)</li>
  <ul>
  <li>[Plot](#plot)</li>
  <li>[Boxplot](#box)</li>
  <li>[Histograma](#hist)</li>
  </ul>
  
  <li>[Pacotes essenciais](#packages)</li>
  <ul>
  <li>[Dplyr](#dplyr)</li>
  <ul>
  <li>[Select](#select)</li>
  <li>[Filter](#filter)</li>
  <li>[Arrange](#arrange)</li>
  <li>[Mutate](#mutate)</li>
  <li>[Pipes](#pipe)</li>
  </ul>
  </ul>
  
  <li>[Pacotes para gráficos](#pacotes_graficos)</li>
  <ul>
  <li>[Ggplot2](#ggplot2)</li>
  <li>[Plotly](#plotly)</li>
  </ul>
  
</ul>

<hr />

### <a name="basico"></a>Uso básico da linguagem
#### <a name="variaveis"></a>Atrubuição de variáveis

```{r}
n <- ((5 + 5) * 4) / 2
n
sqrt(n + 5) -> sq
sq
sq ^ 3
```
<br />

###<a name="vetores"></a> Vetores
```{r}
v <- c(1,2,3,4,5)
v
v <- 1:5
v
seq(5) -> v
v
v <- seq.int(from = 1, to = 5, by = 1)
v
```
<br />
Vetores podem ter seus índices nomeados:
```{r}
v_names <- c("um", "dois", "três", "quatro", "cinco")
names(v) <- v_names
v
```


####<a name="vec_ops"></a> Operações com vetores
Em uma operação entre um vetor e um escalar todos os índices sofrem a operação:
```{r}
v * n

v ** 2
```
É possível operar índices específicos:
```{r}
vis <- v[1] + v[3]
vis
```
Qunado a operação é feita entre dois vetores do mesmo tamanho todos os indices são operados pelos indices do outro vetor:
```{r}
v2 <- c(2,2,2,2,2)
v +v2
```
Se os tamanhos forem diferentes a operação é realizada com um aviso. Os valores do vetor menor são repetidos na operação:
```{r}
v2 <- c(3,3,3)
v * v2
```

###Filtragem
Vetores podem ser filtrados por range
```{r}
v[1:3]
```
Também podem ser filtrados através de condicionais. O caso abaixo retorna um vetor de boleanos que satisfaça a condição:
```{r}
v > 3
```
Para retornar os valores este vetor de boleanos deve ir dentro da indexação:
```{r}
v[v>3]
```
<br />

###<a name="matrizes"></a> Matrizes
Matrizes só podem ter um tipo de valor. Inicialização:
```{r}
m1 <- matrix(1:20, nrow = 4, ncol = 5)
m1
```
####<a name="matrix_ops"></a> Operações com matrizes
A lógica para operações com escalares é a mesma para vetores:
```{r}
m1 * 5
```
Em operações com vetores e matrizes cada coluna da matriz é percorrida pelo vetor em ordem e depois se repete:
```{r}
m1 * v
```

Os valores de duas matrize podem ser operados se elas possuirem a mesma quantidade de linhas e colunas:

```{r}
m2 <- matrix(20:39, nrow = 4, ncol = 5)
m1 * m2
m1 + m2
```

Para de fato multiplcar duas matrizes a regra matemática precisa se respeitada (l1 = c2). O operador correto é %*%

```{r}
m3 <- matrix(1:20, nrow = 5, ncol = 4)
m1 %*% m3
```


<br />

###<a name="int_func"></a> Funções Internas
####<a name="int_func_geral"></a> Funções para aritimética em geral

<br />

####Soma (sum). 
Soma todos os valores de um vetor
```{r}
random_vec <- sample(30)
random_vec
sum(random_vec)
```
<br />

Também pode ser utilizado junto com filtragem, para contar a quantidade de ocorrencias dada uma determinada condição:
```{r}
sum(mtcars$gear == 4)
```
Neste caso o resultado indicad que a tabela "mtcars" possui 12 ocorrencias cuja coluna gear é igaual a 4, ou seja, 12 carros de 4 marchas

<br />

####Média Aritimética símples
##$\bar{x} = \frac{\sum_{i=1}^n x_{i}}{n}$

```{r}
vec_m <- c(1,2,3,4,5,6,7,8,9,10,30)
mean(vec_m)

```
####Mediana

```{r}
median(vec_m)
```



### <a name="aplic_estat"></a> Aplicação em estatística

<br />

####<a name="desvio_padrao"></a>Desivo padrão
##$\sigma = \sqrt{\frac{\sum_{i=1(xi_{i} - \bar{x})^2}^{n}}{n}}$

<br />

```{r}
vec_var <- sample(20)
vec_var
sd(vec_var)

```


<br />

### <a name="regressao_linear"></a> Regressão Lianear

##$Y_{i} = \beta_{0}+\beta_{1}X_{i}+\xi$

Exemplo: Relação entre peso e altura em mulheres:
```{r}
women
regWomen <- lm(women$height ~ women$weight)
summary(regWomen)
```
PONTOS IMPORTANTES:<br />
o p-value o nível de coorrelação entre as variáveis. Abaixo de 0.05 está dentro do intervalo de confiança de 95%<br />
O R ajustado indica a capacidade de explicação das variáveis no modelo.<br />
O resultado possui um p-value extremamente baixo: $1.91^{-14}$, ou seja, alta coorrelação entre as variáveis.<br />
O R ajustado de 0.9903 indica que este modelo tem capacida de explicação em 99.03%.


## <a name="graficos"></a>Gráficos

<br />

### <a name="plot"></a> Plot
Plota de acordo com a serie de dados. No exemplo abaixo cada valor é representado por um ponto no eixo cartesiano:
```{r}
plot(x = cars$speed, y = cars$dist, main = "Distâncias de parada", xlab = "Velocidade", ylab = "Distância")
#Também é possível interferir no gráfico que foi plotado. Os dois comandos devem ser executados juntos.
lines (c(5,25),c(5,80), col='red')
```

Outros tipos de séries exibirão outros visuais:
```{r}
plot(UKDriverDeaths)
```

Ao plotar o resultado de uma regressão linear vários tipos de gráficos serão exibidos:
```{r}
plot(regWomen)
```


### <a name="box"></a> Boxplot
Representa graficamente os valores do mínimo, 1,2 e 3 quartil, mediana e máximo.
```{r}
boxplot(airquality)

```

### <a name="hist"></a> Histograma
Histograma das frequencias de um dataset
```{r}
hist(mtcars$mpg)
```

### <a name="dplyr"></a> Dplyr
#### <a name="select"></a> Select
Retorna um subset com a sleção de colunas filtradas
```{r}
select(mtcars, mpg,hp,qsec,gear)
```
Também pode ser usado com ranges:
```{r}
select(mtcars, hp:gear)
```
<br />

#### <a name="filter"></a> Filter
Filtra linhas de acordo com condições. Operadores binários podem ser utilizados
```{r}
filter(mtcars, hp > 100, wt < 3.000 | qsec > 20.1)
```
<br />

#### <a name="arrange"></a> Arrange
Ordena a tabela de acordo com as variáveis fornecidas. No caso abaixo o primeiro critério de ordenação é a quantidade de cilindros crescente e o segundo é a quantidade de marchas decrescente.
```{r}
arrange(mtcars, cyl, desc(gear))
```
<br />

#### <a name="arrange"></a> Mutate
Insere novas variáveis na tabela. É possível utilizar outras variáveis como base para os valores

```{r}
mutate(USArrests, murder_prop = Murder / (Assault + Rape))
```
<br />

#### <a name="pipe"></a> Pipes
É possível encadear todas estas funções com um pipe ( %>% ):
```{r}
airquality %>% filter(Month == 8) %>% select(Ozone,Temp,Wind) %>% mutate(vento_ao_quadrado = Wind ** 2)
```

<br />
### <a name="pacotes_graficos"></a> Pacotes para gráficos
#### <a name="ggplot2"></a> Ggplot2
Cria gráficos visualmente agradáveis com bastante controle. funciona com a seguinte sintaxe:<br />
ggplot2(dataset, aes(vaX,varY,...)) + função_de_plotagem() + função_de_plotagem() + ...<br />
primeiro é criada a area de plotagem com os parâmetros básicos. Em seguida cada função somada é adcionada ao plot.

```{r}
ggplot(women, aes(women$height,women$weight)) + geom_point(col='red') + geom_path(col='#333333')
ggplot(cars, aes(cars$speed,cars$dist)) + geom_count()
```



<br />

#### <a name="plotly"></a> Plotly
Cria gráficos interativos com excelentes recursos, mas funciona com sistema de visualizador. Se o tipo de gráfico não for fornecido ele tentará deduzir<br />
obs: neste pacote caractere '~' não significa em função de.
```{r}
plot_ly(economics, x = ~date, y = ~pop)
plot_ly(mtcars, y = mtcars$wt, type = "histogram")
```
O eixo Z pode ser usado para gráficos 3d ou heatmaps
```{r}
plot_ly(z = ~volcano, type = "heatmap")
plot_ly(z = ~volcano, type = "surface")
```

Este pacote suporta encadeamento de funções com pipe:
```{r}
plot_ly(economics, x = ~date, color = I("black")) %>%
 add_lines(y = ~uempmed) %>%
 add_lines(y = ~psavert, color = I("red"))
```

